查看原文
其他

橙心优选-数据仓库高级工程师面试

星球好友 数据仓库与Python大数据 2022-08-17


写在前面:

已斩offer,很开心,借公众号“数据仓库与Python大数据”共享平台再分享回馈给大家!关注公众号两年,伴随着个人的成长,学到了很多知识和技术,终于从小公司跳到了大厂。共勉,一起进步。


注:三面合在一起了,也包含了面试美团优选的面试题。



自我介绍




正常介绍就好。报下大名,经历公司与参与项目,负责事项与业绩产出。



思想和方法论


  • 数据仓库理解:架构、分层

  • 数据仓库理解:主题域、好处

  • 范式建模和维度建模区别,混合使用 场景举例

  • 两种建模的解释和理解 区别

  • 雪花模型  星型模型 解释理解

  • 实体建模和维度建模区别

  • ER模型图理解解释

  • 模型会随着业务进行迭代优化手段

  • 拉链表理解解释  场景举例,全量拉链vs增量拉链

  • 数据质量如何保证的

  • 讲一下数据治理

  • 如何做元数据管理,实践

  • 怎么理解数据中台与OneData思想



 Hive 




  • hive 行转列,列转行
  • udf函数讲解,然后手撕一下
  • mapreduce和spark分别讲解然后,区别讲解
  • hive 数据倾斜调优
  • hive sql 优化方式
  • map数、reduce数、job数怎么确定
  • cube、grouping sets、grouping__id


手写SQL 




  • 根据实际业务场景,写累计SQL逻辑
  • 手写连续登录hql,求连续登录的用户,以及具体哪天登录的日期
  • 行转列  列转行


 Spark 




  • spark算子部分讲解举例
  • spark调优讲解并举例
  • spark数据倾斜讲解,并举例。
  • spark宽依赖,窄依赖 讲解,并举例。
  • spark 容错机制



实时数仓&Flink




  • 做过实时数仓吗,生产举例。
  • 实时数仓vs数据湖,生产实践
  • flink 应用场景
  • flink 水位线,窗口
  • flink 反压机制原理
  • kafka 实时讲解,如何分区
  • kafka 数据丢失怎么办
  • kylin 使用问题,优化策略
  • hbase 使用情况,rowkey设计


算法 




  • 求两个连续数组的中位数
  • 手写单例模式

反问环节




一般就问问项目架构、组织架构和对自己的定位就好。不要问太多,很多时候只是面试官在客套。



总结



问的还是比较全的,从离线数仓到实时数仓,从Hive到Spark到Flink,HQL开窗函数使用问的频率也是非常高。但大部分时间,还是都在问项目更多一些。

也参加了美团优选的面试,基本问题都差不多,尤其是技术问题大同小异。问项目细节还是差异挺大的,模型细节,业务细节,模型与业务的结合,一定要理解业务。

写在最后:

我应该是第一批关注这个公众号的粉丝,也是第一批加入仙子星球的读者。伴随公众号的成长,我个人也在成长,很开心能与大家分享,希望能帮到你,也欢迎大家关注这个数仓领域高质量的公众号。再次谢邀!


-- END --


扩展阅读:阿里数据中台资料已为读者朋友准备好了,点击下方公众号“数据仓库与Python大数据”后台回复“阿里中台”,即可下载。公众号菜单栏,“面试系列”专题合集也为大家准备好了。

感谢阅读,本次分享的内容就结束了。本公众号致力于建设数仓领域知识技术人文共享平台,保持日更,每天08:16发文,团队作战,服务奉献,为您提供优秀高质量的数据领域的分享。加群或投稿也可加v:iom1128 或 edw0808,备注:数据,谢谢!

点击图片即可跳转链接

字节跳动-数据仓库高级工程师面试


乘风破浪 | 大厂数仓开发面试经验(二)


面试系列 | 大厂数据开发面试经验


记一次数据岗位大厂面试(已斩offer)



压轴推荐:快手数据中台建设 - 大数据服务化之路

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存